領域相關詞彙極性分析及文件情緒分類之研究 (Domain Dependent Word Polarity Analysis for Sentiment Classification) [In Chinese]
نویسندگان
چکیده
The researches of sentiment analysis aim at exploring the emotional state of writers. The analysis highly depends on the application domains. Analyzing sentiments of the articles in different domains may have different results. In this study, we focus on corpora from three different domains in Traditional and Simplified Chinese, then examine the polarity degrees of vocabularies in these three domains, and propose methods to capture sentiment differences. Finally, we apply the results to sentiment classification with supervised SVM learning. The experiments show that the proposed methods can effectively improve the sentiment classification performance. ¬2B3/± `B[ ̈ ` ́μ ¶ Keywords: Document Sentiment Classification, Word Polarity Analysis, Machine Learning · ̧1o»#B[TUB[`,fHTU()/±j ¢£*1⁄41⁄2j3⁄4¿ 1¿ÀÁ>»#" TFSO à TFIDF j ̄£ÄÅ *l1 IDF ; SO XÆ*Ç È1 TFSOIDF*? ̄£ÉÊ*TFSOIDFËS?ÌÍH>΢§ PÏC* ̄ £Ég#ÐÑ> ̧@Òh TFSSIDF ËS TFSOIDF*TFSDIDF ËS TFIDF>Ó¢* Unigramj¢£A TFSSIDFDÔÕ*TFSOIDF; TFSDIDF"*ÅÖ1 TFIDF*;? ÌIJ>(×3TF: B[ØÁ*IDF: Ù:/±ØÁ*SO: PaÚ ©*SD: BC) TFIDF TFRF Delta TFSO TFSOIDF TFSDIDF TFSSIDF ]^_ 0.848 0.849 0.853 0.847 0.854 0.852 0.863 ab 0.916 0.906 0.914 0.915 0.924 0.918 0.923 cd 0.861 0.839 0.849 0.854 0.871 0.869 0.875 [1] Bo Pang and Lillian Lee, “Opinion Mining and Sentiment Analysis,” Foundations and Trends in Information Retrieval, vol. 2, issue 1-2, pp. 1-135, 2008. [2] Lun-Wei Ku and Hsin-Hsi Chen, “Mining Opinions from the Web: Beyond Relevance Retrieval,” Journal of American Society for Information Science and Technology, vol. 58, no. 12, pp. 1838-1850, 2007. [3] Man Lan, Sam-Yuan Sung, Hwee-Boon Low, and Chew-Lim Tan, ”A Comparative Study on Term Weighting Schemes for Text Categorization,” In Proceedings of 2005 IEEE International Joint Conference on Neural Networks, pp. 546-551, 2005. [4] Justin Martineau and Tim Finin, “Delta TFIDF: An Improved Feature Space for Sentiment Analysis,” In Proceedings of the Third AAAI International Conference on Weblogs and Social Media, pp. 258-261, 2009. Proceedings of the Twenty-Fourth Conference on Computational Linguistics and Speech Processing (ROCLING 2012)
منابع مشابه
主題語言模型於大詞彙連續語音辨識之研究 (On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition) [In Chinese]
本論文研究使用主題資訊之語言模型(Language Model)。當語言模型用於大詞彙連續語 音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能 性。傳統的 N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距 離的詞彙接連資訊,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多 研究學者陸續提出各式主題模型(Topic Model),包括討論文件與詞之關係的機率式潛藏 語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent Dirichlet Allocation, LDA),以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic Model, WTM)。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者 詞虛擬文件與詞之間的關係...
متن کامل相似度比率式鑑別分析應用於大詞彙連續語音辨識 (Likelihood Ratio Based Discriminant Analysis for Large Vocabulary Continuous Speech Recognition) [In Chinese]
在近十年來所發展出的自動語音辨識(automatic speech recognition, ASR)技術中,仍 有許多研究者嘗試僅藉由前端處理來產生具有鑑別性的語音特徵,而獨立於後端模型訓 練與分類器特性。本論文即在此思維下提出嶄新的鑑別式特徵轉換方法,稱為普遍化相 似度比率鑑別分析(generalized likelihood ratio discriminant analysis, GLRDA),其旨在利 用相似度比率檢驗(likelihood ratio test)的概念尋求一個維度較低的特徵空間。在此子空 間中,我們不僅考慮了全體資料的異方差性(heteroscedasticity),即所有類別之共變異矩 陣可被彈性地視為相異,並且在分類上,因著我們也將類別間最混淆之情況(由虛無假 設(null hypothesis)所描述)的發生率降至最低,而達到有助於分類正確率提升的效...
متن کاملSemantic Associative Topic Models for Information Retrieval
主題模型(topic model)被廣泛地應用在各種文件建 模以及語音識別、資訊檢索和本文探勘系統中,有 效地擷取文件或字詞的語意和統計資料。大多數主 題模式,例如機率潛在語意分析(probabilistic latent semantic analysis) 和 潛 在 狄 利 克 里 分 配 (latent Dirichlet allocation),主要都透過一組潛藏的主題機 率分布來描述文件與字詞之間的關係,並用以擷取 文件的潛在語意資訊。然而,傳統的主題模型受限 於詞袋(bag-of-words)的假設,其潛藏主題僅能用來 擷取個體詞(individual word)之間的語意資訊。雖然 個體詞可傳達主題信息,但有時會缺乏本文準確的 語意知識,容易造成文件的誤判,降低檢索的品 質。為了改善主題模型的缺點,本論文提出一種新 穎的語意關聯主題模型(semantic associ...
متن کامل運用概念模型化技術於中文大詞彙連續語音辨識之語言模型調適 (Leveraging Concept Modeling Techniques for Language Model Adaptation in Mandarin Large Vocabulary Continuous Speech Recognition) [In Chinese]
在實作上,概念模型會使用(搜尋)與初步語音辨識結果相關的同領域文件(或 調適語料)內表述的若干概念,用以近似語者內心欲傳達的真正含意,並基於此 來建立概念語言模型。而概念語言模型的建立是分兩個面向來探討,它們分別是 「詞彙」面向與「文件群聚」面向。首先,在實作上,概念模型會使用(搜尋)與 初步語音辨識結果近似同領域文件(或調適語料)內表述的若干概念,用以近似語 者內心欲傳達的真正含意,並基於此來建立概念語言模型。而概念語言模型的建 立是分兩個面向來探討,它們分別是「詞彙」面向與「文件群聚」面向。首先, 我們發展所謂的詞概念語言模型(Word-based Concept Language Model),並應用 於語言模型調適。在建構詞概念語言模型時,我們期望能夠針對每一語句不同的 語意內容(第一階段語音辨識結果,以詞圖[3]表示),在調適語料的若干相關的文 件中挑選一組具有代表性的概念...
متن کامل結合非線性動態特徵之語音情緒辨識(Speech Emotion Recognition via Nonlinear Dynamical Features)[In Chinese]
本研究採用機器學習法對語音情緒辨識進行探討。除一般常被採用之語音特徵, 如音高、共振峰、能量以及梅爾倒頻譜係數之外,研究中加入了夏農熵和曲率指 標(curvature index)[9]兩項非線性特徵,再利用費雪鑑別比與基因演算法搭配的方 式進行特徵挑選。最後使用支持向量機分類器,對柏林語音情緒資料庫進行情緒 分類分析。在加入非線性特徵後,男性及女性之情緒辨識率分別為 88.89%及 86.21%。 Abstract This study is focus on speech emotion recognition through machine learning method. We add two nonlinear dynamical features: Shannon entropy and curvature index, of each frame other than ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2012